Average word length | # of sentences | Source |
---|---|---|
11.26 | 15 | http://kbd.wikipedia.org/wiki/Симпсонхэр |
11.55 | 12 | http://kbd.wikipedia.org/wiki/Хоруатиэ |
11.57 | 31 | http://kbd.wikipedia.org/wiki/КъуэкIыпIэ-Сыбыр_Хы |
11.78 | 14 | http://kbd.wikipedia.org/wiki/Словениэ |
11.81 | 16 | http://kbd.wikipedia.org/wiki/Америкэ_Штат_Зэгуэтхэр |
11.90 | 11 | http://kbd.wikipedia.org/wiki/Риэ |
12.10 | 12 | http://kbd.wikipedia.org/wiki/Сербиэ |
12.12 | 14 | http://kbd.wikipedia.org/wiki/Дзэлыкъуэ_къуажэ |
12.15 | 10 | http://kbd.wikipedia.org/wiki/Марлен_Дитрих |
12.17 | 11 | http://kbd.wikipedia.org/wiki/Гаван |
12.22 | 21 | http://kbd.wikipedia.org/wiki/Ипшэ_Джорджэрэ,_Ипшэ_Сандуичхэрэ_хы_тӀыгухэр |
12.29 | 10 | http://kbd.wikipedia.org/wiki/Псыфаб |
12.31 | 11 | http://kbd.wikipedia.org/wiki/Адыгэхэм_я_хьэдагъэ_махуэ |
12.32 | 14 | http://kbd.wikipedia.org/wiki/Челускин_(къуапэ) |
12.39 | 13 | http://kbd.wikipedia.org/wiki/Сара_Бернар |
12.46 | 18 | http://kbd.wikipedia.org/wiki/Лагунэ |
12.48 | 18 | http://kbd.wikipedia.org/wiki/Фиорд |
12.48 | 11 | http://kbd.wikipedia.org/wiki/Шы_плъыфэр |
12.51 | 29 | http://kbd.wikipedia.org/wiki/Фолклэнд_тIыгухэр |
12.54 | 15 | http://kbd.wikipedia.org/wiki/Атолл |
12.56 | 10 | http://kbd.wikipedia.org/wiki/Сэфар |
12.59 | 11 | http://kbd.wikipedia.org/wiki/Нордкап |
12.61 | 22 | http://kbd.wikipedia.org/wiki/Бофорт_Хы |
12.64 | 14 | http://kbd.wikipedia.org/wiki/Докъушыкъуей |
12.65 | 14 | http://kbd.wikipedia.org/wiki/Грютвикен |
12.65 | 17 | http://kbd.wikipedia.org/wiki/Андзорей |
12.67 | 14 | http://kbd.wikipedia.org/wiki/Республикэ_Македониэ |
12.72 | 21 | http://kbd.wikipedia.org/wiki/Хы |
12.77 | 10 | http://kbd.wikipedia.org/wiki/Унэ_гуэгушхэр |
12.86 | 10 | http://kbd.wikipedia.org/wiki/Къумадэджынэ |
Average word length | # of sentences | Source |
---|---|---|
17.49 | 10 | http://kbd.wikipedia.org/wiki/Биологиэ_систематикэ |
16.39 | 10 | http://kbd.wikipedia.org/wiki/Аулъэ_Тхьэйшъау |
16.34 | 10 | http://kbd.wikipedia.org/wiki/Сэтэней_(удз) |
16.24 | 19 | http://kbd.wikipedia.org/wiki/Абазэ-Адыгэбзэхэр |
15.72 | 13 | http://kbd.wikipedia.org/wiki/Хэкумэтх |
15.65 | 39 | http://kbd.wikipedia.org/wiki/Адыгэбзэ |
15.63 | 19 | http://kbd.wikipedia.org/wiki/Индустриал_револуциэ |
15.56 | 12 | http://kbd.wikipedia.org/wiki/АӀуудз-лъэпкъ |
15.56 | 18 | http://kbd.wikipedia.org/wiki/Адыгэ_ермэлхэр |
15.50 | 127 | http://kbd.wikipedia.org/wiki/Адыгэ_лъэпкъыжьхэм_я_Тхыдэ |
15.49 | 11 | http://kbd.wikipedia.org/wiki/Нартхэр |
15.43 | 45 | http://kbd.wikipedia.org/wiki/Бзыикъуэ_зауэ |
15.42 | 14 | http://kbd.wikipedia.org/wiki/КъардэнгъущӀ,_Зырамыку |
15.40 | 15 | http://kbd.wikipedia.org/wiki/КъуэкӀыпӀэ_Гъунэгъу |
15.37 | 21 | http://kbd.wikipedia.org/wiki/Къуалэбзухэр |
15.30 | 17 | http://kbd.wikipedia.org/wiki/БгыфӀыцӀей |
15.29 | 15 | http://kbd.wikipedia.org/wiki/Ингушей |
15.28 | 12 | http://kbd.wikipedia.org/wiki/Тут_мэракӀуэ |
15.28 | 12 | http://kbd.wikipedia.org/wiki/ПсыIэрышэ |
15.27 | 15 | http://kbd.wikipedia.org/wiki/ШыкӀэпшынэ |
15.27 | 17 | http://kbd.wikipedia.org/wiki/Дыгъужь |
15.26 | 11 | http://kbd.wikipedia.org/wiki/Лъэпкъ_Зэгуэтхэр,_ЛъЗ |
15.23 | 10 | http://kbd.wikipedia.org/wiki/Хьэрхьуп |
15.20 | 16 | http://kbd.wikipedia.org/wiki/Къэзэнокъуэ_Жэбагъы |
15.17 | 29 | http://kbd.wikipedia.org/wiki/Щомыщ |
15.16 | 10 | http://kbd.wikipedia.org/wiki/Хьэ_(къэкӀыгъэ) |
15.15 | 17 | http://kbd.wikipedia.org/wiki/Ужьэ |
15.13 | 11 | http://kbd.wikipedia.org/wiki/Къэрмэфибл |
15.11 | 13 | http://kbd.wikipedia.org/wiki/Гъаф |
15.08 | 22 | http://kbd.wikipedia.org/wiki/Кроу |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words